Enfoque de perturbación para bandidos lineales
Descubre cómo un enfoque de perturbación logra arrepentimiento óptimo en bandidos lineales no restringidos, con nuevas garantías de alta probabilidad y tasas adaptativas.
Descubre cómo un enfoque de perturbación logra arrepentimiento óptimo en bandidos lineales no restringidos, con nuevas garantías de alta probabilidad y tasas adaptativas.